Video Title: Inference, Diffusion, World Models, and More | YC Paper Club
Video ID: wE1ZgJdt4uM
Video URL: https://www.youtube.com/watch?v=wE1ZgJdt4uM
Export Date: 2026-06-16 20:32:12
Channel: Y Combinator
Format: plain
================================================================================

Основные выводы и инсайты

Ключевые выводы и инсайты

• Инференс становится ключевым фактором возможностей ИИ: В ближайшие 2-3 года скорость инференса будет определять не только удобство, но и пиковый интеллект системы, особенно для алгоритмов, производительность которых зависит от количества "размышлений"

• Спекулятивное декодирование можно распараллелить: Speculative Speculative Decoding (SSD) позволяет одновременно выполнять черновое создание и верификацию токенов, скрывая латентность черчения

• Мировые модели обеспечивают лучшую интерпретируемость: В отличие от model-free подходов, мировые модели позволяют количественно оценивать ошибки моделирования и неопределенность

• Классические теории объясняют современные "загадки" ИИ: Сверхпараметризация, доброкачественное переобучение и двойной спуск можно объяснить через PAC-Bayes и мягкие индуктивные смещения

• При ограничениях по данным нужны новые стратегии: Когда данные ограничены, а вычисления неограничены, ансамблирование и агрессивная регуляризация дают 5-кратный выигрыш в эффективности данных

Практические стратегии

• Для ускорения инференса: Используйте SSD для распараллеливания черчения и верификации, предсказывая наиболее вероятные исходы верификации заранее

• Для робототехники: Применяйте диффузионные модели для многошагового прогнозирования действий и динамики, используя MPC для адаптации к новым наградам во время выполнения

• Для мировых моделей: Используйте JEPA архитектуру с SIG регуляризатором (Sketched, Isotropic, Gaussian) для предотвращения коллапса представлений

• При ограничениях данных: 
• Применяйте агрессивную регуляризацию (weight decay в 30 раз больше обычного)
• Используйте ансамблирование множества меньших моделей вместо одной большой
• Применяйте дистилляцию для уменьшения вычислительных затрат при инференсе

Конкретные детали и примеры

• SSD достигает 300 токенов/сек для Llama 3 70B на 4 H100, правильно предсказывая исходы верификации в 80-90% случаев

• Мировые модели работают с 15 млн параметров на одной карте с <24GB VRAM, в 50 раз быстрее конкурентов

• В эксперименте с 200 млн токенов ансамблирование показало асимптоту 2.85 против 3.43 для регуляризации

• Совместное масштабирование (регуляризация + ансамблирование) дает 5-кратный выигрыш в эффективности данных

• Дистилляция сохраняет 83% улучшения потерь при переходе от ансамбля к одной модели

Предупреждения и частые ошибки

• Не полагайтесь только на масштабирование модели при ограниченных данных - это приводит к переобучению после определенной точки

• Избегайте коллапса представлений в мировых моделях - используйте соответствующую регуляризацию или трюки

• Не игнорируйте классические методы ML - регуляризация, ансамблирование и дистилляция остаются мощными инструментами

• PAC-Bayes границы становятся неточными при неправильном вычислении компрессионного члена

• Мировые модели могут плохо работать на простых низкоразмерных задачах из-за избыточной сложности

Ресурсы и следующие шаги

• Код SSD: Доступен пример реализации с демонстрацией на VLM

• Проектная страница LAY World Model: QR-код предоставлен для подробностей

• Сотрудничество с Andrew Gordon Wilson в Q Labs по проблеме обобщения

• Дополнительная работа по синтетическим данным и их взаимодействию с эффективностью данных

• YC Paper Club Slack для продолжения обсуждений и идей

Основные темы

• Эволюция инференса: От вспомогательного инструмента к ключевому фактору возможностей ИИ

• Мировые модели против model-free подходов: Компромиссы между интерпретируемостью и простотой

• Классические теории ML в современном контексте: Как PAC-Bayes объясняет современные явления глубокого обучения

• Стратегии при ограничениях данных: Новые подходы для эпохи, когда вычисления растут быстрее данных

• Распараллеливание последовательных алгоритмов: Преодоление логических зависимостей в спекулятивном декодировании